Multi-modal fusion is a basic task of autonomous driving system perception, which has attracted many scholars' interest in recent years. The current multi-modal fusion methods mainly focus on camera data and LiDAR data, but pay little attention to the kinematic information provided by the bottom sensors of the vehicle, such as acceleration, vehicle speed, angle of rotation. These information are not affected by complex external scenes, so it is more robust and reliable. In this paper, we introduce the existing application fields of vehicle bottom information and the research progress of related methods, as well as the multi-modal fusion methods based on bottom information. We also introduced the relevant information of the vehicle bottom information data set in detail to facilitate the research as soon as possible. In addition, new future ideas of multi-modal fusion technology for autonomous driving tasks are proposed to promote the further utilization of vehicle bottom information.
translated by 谷歌翻译
客户评论通常包含有关一个人在线购物体验的大量信息。尽管积极的评论对商店有益,但负面评论将在很大程度上影响消费者的决定,并可能导致销售下降。因此,仔细和有说服力地回答每个负面评论并最大程度地减少其不利影响至关重要。最近的研究考虑利用生成模型来帮助卖家做出回应。但是,此问题并不深入,因为评论可能包含问题的多个方面,这些方面应相应和有说服力地解决。在这项工作中,我们为有说服力的响应生成提出了一个多源多相关生成模型。提出的模型适当地获得和利用了各种信息来源,以产生更有信息和有说服力的响应。提出了一个多方面的细心网络,以自动参与审查中的不同方面,并确保解决大多数问题。在两个现实世界数据集上进行的广泛实验表明,我们的方法优于最先进的方法和在线测试,这证明我们的部署系统大大提高了商店处理负面评论的效率。
translated by 谷歌翻译
尽管条件变异自动编码器(CVAE)模型比传统的SEQ2SEQ模型可以产生更多的多样化响应,但响应通常与输入词的相关性低或与问题不合逻辑。进行因果分析以研究背后的原因,并提供了一种寻找调解人并减轻对话中混杂偏见的方法。具体而言,我们建议预测调解人,以保留相关信息,并自动将调解人纳入生成过程中。此外,动态主题图指导条件变异自动编码器(TGG-CVAE)模型用于补充语义空间并减少响应中的混杂偏置。广泛的实验表明,所提出的模型能够产生相关和信息性的响应,并且在自动指标和人类评估方面优于最先进的响应。
translated by 谷歌翻译
以一致的性格赋予聊天机器人对于代理商提供类似人类互动的作用至关重要。但是,现有的个性化方法通常会根据用文本描述描绘的静态预定义角色产生响应,这可能严重限制了人类和聊天机器人的互动性,尤其是当代理人需要回答预定义角色中排除的查询时,这是如此 - 被称为预先定义的角色问题(以简单性为OOP)。为了减轻问题,在本文中,我们提出了一个新颖的检索到预测范式,该范式由两个子组件组成,即(1)角色检索模型(PRM),它根据自然语言推论从全球收藏中检索角色( NLI)模型,推断的角色与预定义的角色一致; (2)后验变压器(PS-Transformer)采用角色后部分布,进一步考虑了地面响应中使用的实际角色,从而最大程度地减轻了训练和推断之间的差距。此外,我们提出了一个名为IT-Convai2的数据集,该数据集首先突出了个性化对话中的OOP问题。对IT-Convai2和Convai2的广泛实验表明,我们提出的模型在自动指标和人类评估方面都有显着改善。
translated by 谷歌翻译
在发展强化学习(RL)培训系统方面取得了重大进展。过去的作品,例如Impala,Apex,Seed RL,样本工厂等,旨在改善系统的整体吞吐量。在本文中,我们试图解决RL训练系统中的常见瓶颈,即平行环境执行,这通常是整个系统中最慢的部分,但很少受到关注。通过针对RL环境的策划设计,我们改善了不同硬件设置的RL环境模拟速度,从笔记本电脑和适度的工作站到NVIDIA DGX-A100等高端机器。在高端机器上,Envpool在Atari环境上的环境执行每秒可实现100万帧,在Mujoco环境上每秒执行300万帧。在笔记本电脑上运行时,Envpool的速度是Python子过程的2.8倍。此外,在开源社区中已经证明了与现有RL培训库的极大兼容性,包括Cleanrl,RL_Games,DeepMind Acme等。最后,Envpool允许研究人员以更快的速度迭代他们的想法,并具有巨大的潜力,并具有巨大的潜力事实上的RL环境执行引擎。示例运行表明,在笔记本电脑上训练Atari Pong和Mujoco Ant只需5分钟即可。 Envpool已经在https://github.com/sail-sg/envpool上开源。
translated by 谷歌翻译
传统的生物和制药工厂由人类工人或预定义阈值控制。现代化的工厂具有高级过程控制算法,例如模型预测控制(MPC)。但是,几乎没有探索将深入的增强学习来控制制造厂。原因之一是缺乏高保真模拟和基准测试的标准API。为了弥合这一差距,我们开发了一个易于使用的库,其中包括五个高保真模拟环境:BeerfMtenV,Reactorenv,Atropineenv,Pensimenv和Mabenv,涵盖了广泛的制造过程。我们在已发布的动态模型上构建这些环境。此外,我们在线和离线基准基准,基于模型和无模型的强化学习算法,用于比较后续研究。
translated by 谷歌翻译
近年来,由于机器学习的进步,已经完成了无数关于智能机器人政策的最高级工作。然而,效率低下和缺乏转移能力阻碍了实用应用程序,尤其是在人类机器人协作中,少数快速学习和高灵活性成为一种努力。为了克服这一障碍,我们指的是一个“政策池”,其中包含可以轻松访问和重复使用的预训练技能。通过以灵活的顺序展开必要的技能,采用代理来管理“政策池”,取决于特定于任务的偏爱。可以从一个或几个人类专家示范中自动解释这种偏好。在这个层次结构的环境下,我们的算法能够在迷你招架环境中获得一个稀疏的奖励,多阶段的诀窍,只有一次演示,显示了有可能立即掌握人类教练的复杂机器人技能的潜力。此外,我们算法的先天质量还允许终身学习,使其成为一种多功能的代理。
translated by 谷歌翻译
主要对象通常存在于图像或视频中,因为它们是摄影师想要突出的物体。人类观众可以轻松识别它们,但算法经常将它们与其他物体混为一组。检测主要受试者是帮助机器理解图像和视频内容的重要技术。我们展示了一个新的数据集,其目标是培训模型来了解对象的布局和图像的上下文,然后找到它们之间的主要拍摄对象。这是在三个方面实现的。通过通过专业射击技能创建的电影镜头收集图像,我们收集了具有强大多样性的数据集,具体而言,它包含107 \,700图像,从21 \,540电影拍摄。我们将其标记为两个类的边界框标签:主题和非主题前景对象。我们对数据集进行了详细分析,并将任务与显着性检测和对象检测进行比较。 imagesBject是第一个尝试在摄影师想要突出显示的图像中本地化主题的数据集。此外,我们发现基于变压器的检测模型提供了其他流行模型架构中的最佳结果。最后,我们讨论了潜在的应用并以数据集的重要性讨论。
translated by 谷歌翻译
对比学习在各种高级任务中取得了显着的成功,但是为低级任务提出了较少的方法。采用VANILLA对比学习技术采用直接为低级视觉任务提出的VANILLA对比度学习技术,因为所获得的全局视觉表现不足以用于需要丰富的纹理和上下文信息的低级任务。在本文中,我们提出了一种用于单图像超分辨率(SISR)的新型对比学习框架。我们从两个视角调查基于对比的学习的SISR:样品施工和特征嵌入。现有方法提出了一些天真的样本施工方法(例如,考虑到作为负样本的低质量输入以及作为正样品的地面真理),并且它们采用了先前的模型(例如,预先训练的VGG模型)来获得该特征嵌入而不是探索任务友好的。为此,我们向SISR提出了一个实用的对比学习框架,涉及在频率空间中产生许多信息丰富的正负样本。我们不是利用其他预先训练的网络,我们设计了一种从鉴别器网络继承的简单但有效的嵌入网络,并且可以用主SR网络迭代优化,使其成为任务最通报。最后,我们对我们的方法进行了广泛的实验评估,与基准方法相比,在目前的最先进的SISR方法中显示出高达0.21 dB的显着增益。
translated by 谷歌翻译
为了解决高光谱图像超分辨率(HSISR)的不良问题,通常方法是使用高光谱图像(HSIS)的先前信息作为正则化术语来限制目标函数。使用手工制作前沿的基于模型的方法无法完全表征HSI的性质。基于学习的方法通常使用卷积神经网络(CNN)来学习HSI的隐式前导者。然而,CNN的学习能力是有限的,它仅考虑HSI的空间特性并忽略光谱特性,并且卷积对远程依赖性建模无效。还有很多改进的空间。在本文中,我们提出了一种新颖的HSISR方法,该方法使用变压器而不是CNN来学习HSI之前。具体地,我们首先使用近端梯度算法来解决HSISR模型,然后使用展开网络来模拟迭代解决方案过程。变压器的自我注意层使其具有空间全局互动的能力。此外,我们在变压器层后面添加3D-CNN,以更好地探索HSIS的时空相关性。两个广泛使用的HSI数据集和实际数据集的定量和视觉结果证明,与所有主流算法相比,所提出的方法实现了相当大的增益,包括最竞争力的传统方法和最近提出的基于深度学习的方法。
translated by 谷歌翻译